数据可视化 - 经典的图表分析

柱状图 Bar Chart - 比较

其中一个轴表示需要对比的分类维度,另一个轴代表相应的数值。

柱状图描述的是分类数据,回答的是每一个分类中“有多少?”这个问题。

类别

  • 纵向柱状图:<12条数据,类别最好使用不同颜色表示
  • 横向柱状图:<30条数据,

适合场景 - 类别对比

适合应用到分类数据对比。

不适合场景

  • 分类太多不适合使用纵向柱状图。
  • 不适合表示趋势

对比

  • 柱状图适合多个类别的大小、数值对比
  • 折线图用于连续数值(时间)或有序分类的变化趋势
  • 饼图展示分类占比情况

  • 南丁格尔玫瑰图通过半径比较,柱状图通过矩形长度比较

折线图 Line chart - 趋势

显示数据在一个连续的时间间隔或者时间跨度上的变化,它的特点是反映事物随时间或有序类别而变化的趋势。

适合的场景

例子:有序的因变量,比如:时间。

折线图可以很好地表现数据递减、增减的速率、增减的规律、峰值等特征。

不适合的场景

当水平轴的数据类型为无序的分类或者垂直轴的数据类型为连续时间时,不适合使用折线图。

当折线的条数过多时不建议将多条线绘制在一张图上,可以控制仅显示一条线来解决这个问题。

对比 - 折线图和面积图

  • 折线图和面积图都可以表示一段时间(或者有序分类)的趋势,相比之下面积图的表现力更强一些
  • 面积图还可以表示数据的上下限,例如可以表示温度的最小值、最大值
  • 层叠面积图:河流图,清晰的反应每个数值所占百分比随时间或类别变化的趋势线

饼图 - 经常被滥用

优点:

  • 显示部分到整体的关系
  • 熟悉的形状

缺点:

  • 难以阅读,因为它更容易区分长度差异而不是角度差异
  • 它很容易被滥用

因为人类大脑可以更容易地比较长度而不是角度。

适合的场景

例子1: 展示 2 个分类的占比情况。

例子2:多个但不超过 9 个分类的占比情况。

不适合的场景

例子1:分类过多的场景。推荐使用横向柱状图

例子2: 分类占比差别不明显的场景

对比 - 饼图和南丁格尔玫瑰图

  • 饼图通过弧度的大小来对比数据。
  • 南丁格尔图通过半径的大小来对比数据。

直方图 Histogram - 分布

形状类似柱状图却有着与柱状图完全不同的含义。直方图牵涉统计学的概念,首先要对数据进行分组,然后统计每个分组内数据元的数量。

首先要对数据进行分组,然后统计每个分组内数据元的数量。 在平面直角坐标系中,横轴标出每个组的端点,纵轴表示频数,每个矩形的高代表对应的频数,称这样的统计图为频数分布直方图。

类别

  • 非标准的直方图:纵轴表示数量
  • 频数分布直方图:纵轴为频数

image-20190323125610693

适合的场景 - 数据分布

  • 用于表示分布情况
  • 用于观察异常或孤立数据

不适合的场景

抽取的样本数量过小,将会产生较大误差,可信度低,也就失去了统计的意义。因此,样本数不应少于 50 个。

直方图与柱状图对比

  • 柱状图是以矩形的长度表示每一组的频数或数量,其宽度(表示类别)则是固定的,利于较小的数据集分析
  • 直方图是以矩形的长度表示每一组的频数或数量,宽度则表示各组的组距,因此其高度与宽度均有意义,利于展示大量数据集的统计结果
  • 由于分组数据具有连续性,直方图的各矩形通常是连续排列,而柱状图则是分开排列。

###